Anthropic lancia un nuovo modello di intelligenza artificiale che "pensa" finché vuoi

Anthropic sta rilasciando un nuovo modello di intelligenza artificiale all'avanguardia chiamato Claude 3.7 Sonnet, progettato dall'azienda per "pensare" alle domande per tutto il tempo che gli utenti desiderano.
Anthropic definisce Claude 3.7 Sonnet il primo "modello di ragionamento AI ibrido" del settore, perché è un singolo modello in grado di fornire sia risposte in tempo reale sia risposte più ponderate e "pensate" alle domande. Gli utenti possono scegliere se attivare le capacità di "ragionamento" del modello AI, che spingono Claude 3.7 Sonnet a "pensare" per un breve o lungo periodo di tempo.
Il modello rappresenta lo sforzo più ampio di Anthropic per semplificare l'esperienza utente attorno ai suoi prodotti AI. La maggior parte dei chatbot AI oggi ha un selettore di modelli scoraggiante che costringe gli utenti a scegliere tra diverse opzioni che variano in termini di costi e capacità. I laboratori come Anthropic preferirebbero che non ci dovessi pensare: idealmente, un modello fa tutto il lavoro.
Claude 3.7 Sonnet verrà distribuito a tutti gli utenti e sviluppatori lunedì, ha affermato Anthropic, ma solo gli utenti che pagano i piani premium del chatbot Claude di Anthropic avranno accesso alle funzionalità di ragionamento del modello. Gli utenti di Claude gratuiti otterranno la versione standard, non ragionante, di Claude 3.7 Sonnet, che Anthropic afferma supera il suo precedente modello di intelligenza artificiale di frontiera, Claude 3.5 Sonnet . (Sì, l'azienda ha saltato un numero.)
Claude 3.7 Sonnet costa 3 $ per milione di token di input (il che significa che potresti inserire circa 750.000 parole, più parole dell'intera serie del Signore degli Anelli, in Claude per 3 $) e 15 $ per milione di token di output. Ciò lo rende più costoso di o3-mini di OpenAI (1,10 $ per 1 milione di token di input/4,40 $ per 1 milione di token di output) e R1 di DeepSeek (0,55 $ per 1 milione di token di input/2,19 $ per 1 milione di token di output), ma tieni presente che o3-mini e R1 sono modelli di ragionamento rigorosi, non ibridi come Claude 3.7 Sonnet.

Claude 3.7 Sonnet è il primo modello di intelligenza artificiale di Anthropic in grado di "ragionare", una tecnica a cui molti laboratori di intelligenza artificiale hanno fatto ricorso man mano che i metodi tradizionali per migliorare le prestazioni dell'intelligenza artificiale si affievoliscono .
Modelli di ragionamento come o3-mini, R1, Gemini 2.0 Flash Thinking di Google e Grok 3 (Think) di xAI utilizzano più tempo e potenza di calcolo prima di rispondere alle domande. I modelli suddividono i problemi in passaggi più piccoli, il che tende a migliorare l'accuratezza della risposta finale. I modelli di ragionamento non pensano o ragionano come farebbe un essere umano, necessariamente, ma il loro processo è modellato sulla deduzione.
Alla fine, Anthropic vorrebbe che Claude capisse per quanto tempo dovrebbe "pensare" alle domande da solo, senza che gli utenti debbano selezionare i controlli in anticipo, ha detto a TechCrunch Diane Penn, responsabile dei prodotti e della ricerca di Anthropic, in un'intervista.
"Similmente a come gli esseri umani non hanno due cervelli separati per le domande a cui si può rispondere immediatamente rispetto a quelle che richiedono riflessione", ha scritto Anthropic in un post sul blog condiviso con TechCrunch, "consideriamo il ragionamento semplicemente come una delle capacità che un modello di frontiera dovrebbe avere, da integrare senza problemi con altre capacità, piuttosto che qualcosa da fornire in un modello separato".
Anthropic afferma che sta consentendo a Claude 3.7 Sonnet di mostrare la sua fase di pianificazione interna attraverso un "blocco note visibile". Lee ha detto che gli utenti di TechCrunch vedranno il processo di pensiero completo di Claude per la maggior parte dei prompt, ma che alcune parti potrebbero essere censurate per motivi di fiducia e sicurezza.

Anthropic afferma di aver ottimizzato le modalità di pensiero di Claude per attività del mondo reale, come problemi di codifica difficili o attività agentiche. Gli sviluppatori che sfruttano l'API di Anthropic possono controllare il "budget" per il pensiero, scambiando velocità e costo per la qualità della risposta.
In un test per misurare attività di codifica in situazioni reali, SWE-Bench, Claude 3.7 Sonnet ha ottenuto un'accuratezza del 62,3%, rispetto al modello o3-mini di OpenAI che ha ottenuto un punteggio del 49,3%. In un altro test per misurare la capacità di un modello di intelligenza artificiale di interagire con utenti simulati e API esterne in un contesto di vendita al dettaglio, TAU-Bench, Claude 3.7 Sonnet ha ottenuto un punteggio dell'81,2%, rispetto al modello o1 di OpenAI che ha ottenuto un punteggio del 73,5%.
Anthropic afferma inoltre che Claude 3.7 Sonnet rifiuterà di rispondere alle domande meno spesso rispetto ai suoi modelli precedenti, sostenendo che il modello è in grado di fare distinzioni più sfumate tra richieste dannose e benigne. Anthropic afferma di aver ridotto i rifiuti non necessari del 45% rispetto a Claude 3.5 Sonnet. Ciò avviene in un momento in cui altri laboratori di intelligenza artificiale stanno riconsiderando il loro approccio alla limitazione delle risposte del loro chatbot di intelligenza artificiale .
Oltre a Claude 3.7 Sonnet, Anthropic sta anche rilasciando uno strumento di codifica agentica chiamato Claude Code. Lanciato come anteprima di ricerca, lo strumento consente agli sviluppatori di eseguire attività specifiche tramite Claude direttamente dal loro terminale.
In una demo, i dipendenti di Anthropic hanno mostrato come Claude Code può analizzare un progetto di codifica con un semplice comando come " Spiega questa struttura di progetto". Utilizzando un inglese semplice nella riga di comando, uno sviluppatore può modificare una base di codice. Claude Code descriverà le sue modifiche mentre apporta cambiamenti e persino testerà un progetto per errori o lo spingerà in un repository GitHub.
Inizialmente, Claude Code sarà disponibile per un numero limitato di utenti in base al principio "chi prima arriva meglio alloggia", ha detto un portavoce di Anthropic a TechCrunch.
Anthropic sta rilasciando Claude 3.7 Sonnet in un momento in cui i laboratori di intelligenza artificiale stanno distribuendo nuovi modelli di intelligenza artificiale a un ritmo vertiginoso. Anthropic ha storicamente adottato un approccio più metodico e incentrato sulla sicurezza. Ma questa volta, l'azienda sta cercando di guidare il gruppo.
Per quanto tempo è la domanda. OpenAI potrebbe essere vicina a rilasciare un modello di IA ibrida tutto suo ; il CEO dell'azienda, Sam Altman, ha detto che arriverà tra "mesi".
techcrunch